boxplot
最近在twitter上看到了#barbarplots运动。详情见下面的视频:
https://v.qq.com/txp/iframe/player.html?vid=a1313sz8ees&width=500&height=375&auto=0
正好三年前也写过博客说起尽量使用boxplot,而不是barplot,于是也算是借助热点,重推旧文,点击阅读原谅直达3年前的博客文。
生物坑很多人画图只会直方图,统计只会T检验,在暨大见过太多的学生连T检验都不会,分不清SEM和SD的差别,也不清楚T检验那几个简单参数的含义。我写统计笔记也是因为不想重复性地跟学生讲解T。
Barplot和T test一样普遍而流行,barplot适合于表示计数数据和比例,显示比例也可以用pie plot,但直方图比饼图要好,因为人类的眼睛适合于比较高度,而不是弧度。
多半时候生物学数据并非简单的计数数据,对于测量数据,在展示数据分布时,很多人会使用他们熟悉的barplot,用高度来表示mean,然后再加上errorbar,这样展示数据,信息量是非常低的,使用boxplot能够提供更多的数据分布信息,能更好地展现数据,但可能很多人只会在excel里画barplot,Nature Methods 2013年的文章中有100个barplot图,而只有20个boxplot图,从这里就可以看出来,用boxplot的人远远没有barplot多,于是NPG怒了,写了两篇专栏文章和并且发表了一篇方便大家画boxplot,如此简单的web tool能够发Nature Methods,实在是让人羡慕妒忌恨啊。
Boxplot从1970年由John Tukey提示,到现在已经40多年了,他有很多的变种,比如和,violin plot和beanplot是很像的,都是把box换成density curve,beanplot另外把数据点在中间用线条表示出来,这个很容易加上去,正如我在中把数据点加进去一样。同样可以把数据点加进boxplot中,还有很多手法来展示boxplot,比如可以用缺口(notch)形式来画boxplot,可以把中间的宽度表示为median值的置信空间。boxplot的宽度可以用样本量来归一化,如果sample size足够大的话,mean +- errorbar 不会超出box,可以很清晰把这个信息也展示在boxplot中。